统计推断—参数估计—点估计、区间估计、t分布、Z分布

最新推荐文章于 2024-07-27 13:56:45 发布

xia ge tou lia

最新推荐文章于 2024-07-27 13:56:45 发布

阅读量1.5w

点赞数 8

分类专栏：统计学参数估计文章标签：参数估计统计推断区间估计

本文链接：https://blog.csdn.net/huangguohui_123/article/details/103669119

版权

统计学同时被 2 个专栏收录

30 篇文章 60 订阅

订阅专栏

参数估计

3 篇文章 0 订阅

订阅专栏

统计推断包括参数估计和假设检验。参数估计就是用样本指标（统计量）来估计总体指标（参数）。

一、参数估计基础-Z分布

在统计应用中，可以把任何一个均数为 $\mu$ ，标准差为 $\sigma$ 的正态分布 $N(\mu ,\sigma ^{2})$ 转变为 $\mu =0$ , $\sigma =1$ 的标准正态分布，即将正态变量值用 $Z=\frac{X-\mu }{\sigma }$ 来代替，由于 $\overline{X}$ 服从正态分布，故 $Z=\frac{\overline{X}-\mu }{\sigma _{\overline{X}}}$ 服从标准正态分布 $N(0,1)$ ，其中 $\sigma _{\overline{X}}$ 表示总体的标准差。

特点：总体的标准差 $\sigma _{\overline{X}}$ 是一定的。

二、参数估计基础-t分布

实际资料的分析中，由于 $\sigma$ 往往未知，故标准化转换演变为： $\frac{\overline{X}-\mu }{S _{\overline{X}}}=\frac{\overline{X}-\mu }{S/\sqrt{n}}$ ，服从 $\nu =n-1$ 的分布，即： $t=\frac{\overline{X}-\mu }{S _{\overline{X}}}$ 。其中表示样本的标准差， $S/\sqrt{n}$ 表示标准误。

统计学家发现，t分布的分布性状是与和样本量息息相关的自由度相对应的。

t 分布曲线特点：

分布曲线是单峰分布，它以0为中心，左右对称。
分布的形状与样本例数（自由度 $\nu=n-1$ ）有关。自由度越小，则 $S_{\overline{X}}$ 越大，值越分散，曲线的峰部越矮，尾部则偏高。
当 $n\rightarrow +\infty$ 时，则逼近 $\sigma$ ，分布逼近标准正态分布。
分布不是一条曲线，而是一簇曲线。

三、参数估计基础-t转换和Z转换的不同

$Z=\frac{\overline{X}-\mu }{\sigma _{\overline{X}}}$ 转换标准误在一个固定的 $\sigma _{\overline{X}}$ 上实现的转换。
$t=\frac{\overline{X}-\mu }{S _{\overline{X}}}=\frac{\overline{X}-\mu }{S/\sqrt{n}}$ 转换是基于和每次抽样结果（为样本的标准差）有相关关系的标准差，所有相对于基于总体标准差来说，有一定的不确定性。

四、参数估计-点估计

用样本统计量直接作为总体参数的估计值。

例于2000年测得某地27例健康成年男性血红蛋白量的样本均数为125g/L，试估计其总体均数。

$\overline{X}\rightarrow \mu$ ，即认为2000年该地所有健康成年男性血红蛋白量的总体均数为125g/L 。

缺陷：用样本均值测算总体均值完全相等几乎是不可能的，所以我们用一个范围去估计总体参数所在的位置（区间估计）。

五、参数估计-区间估计

按预先给定的概率 $(1-\alpha )$ 估计总体参数的可能范围，该范围就称为总体参数的 $(1-\alpha )$ 置信区间(confidence interval, CI) 。

预先给定的概率 $(1-\alpha )$ 称为置信度，常取95%或99%。如无特别说明，一般取双侧95%。

置信区间由两个数值即置信限（下限和上限）构成。

置信水平是指总体参数值落在样本统计值某一区内的概率（成功率）；而置信区间是指在某一置信水平下，样本统计值与总体参数值间误差范围。置信区间越大，置信水平越高。

1、总体均数 $\left ( \mu \right )$ 的区间估计

以下是正态总体抽样得到的均数的分布规律，通过抽样得到的样本均数 $\overline{X}$ 和 $\mu$ 并不能原丝合缝的相等。

（1） $\sigma$ 已知

按标准正态分布原理计算，由分布，标准正态曲线下有 95%的值在±1.96之间。

$-1.96<\frac{\overline{X}-\mu }{\sigma _{\overline{X}}}<1.96$ 简单运算之后转换为： $\overline{X}-1.96\sigma _{\overline{X}}<\mu <\overline{X}+1.96\sigma _{\overline{X}}$
95%的双侧置信区间： $(\overline{X}-1.96\sigma _{\overline{X}},\overline{X}+ 1.96\sigma _{\overline{X}})$

99%的双侧置信区间： $(\overline{X}-2.58\sigma _{\overline{X}},\overline{X}+2.58\sigma _{\overline{X}})$ ，99%的双侧置信区间

通式： $\overline{X}-Z_{\alpha/2}\sigma _{\overline{X}}$ （双侧）

（2） $\sigma$ 未知，样本例数足够大（）

由分布可知，自由度越大，分布越逼近标准正态分布，此时曲线下有 95%的值在±1.96之间，即：

$-1.96<\frac{\overline{X}-\mu }{S_{\overline{X}}}<1.96$ 简单运算之后转换为： $\overline{X}-1.96S _{\overline{X}}<\mu <\overline{X}+1.96S_{\overline{X}}$ 。
95%的双侧置信区间： $(\overline{X}-1.96S_{\overline{X}},\overline{X}+ 1.96S _{\overline{X}})$

99%的双侧置信区间： $(\overline{X}-2.58S_{\overline{X}},\overline{X}+2.58S_{\overline{X}})$

通式： $\overline{X}-Z_{\alpha/2}S _{\overline{X}}$ （其中 $S_{\overline{X}}=S/\sqrt{n}$ ，表示样本标准差，表示样本含量， $S_{\overline{X}}$ 是基于样本标准差的标准误）（双侧）

例某市2000年随机测量了90名19岁健康男大学生的身高，其均数为172.2cm，标准差为4.5cm,，试估计该地19岁健康男大学生的身高的95%置信区间。

$\overline{X}\pm Z_{\alpha/2}S _{\overline{X}}$ ， $Z_{0.05/2}=1.96$

$\overline{X}\pm 1.96S _{\overline{X}}=172.2\pm 1.96\frac{4.5}{\sqrt{90}}=(171.3,173.1))$

该市19岁健康男大学生的身高的95%置信区间(171.3,173.1) cm。

注意：

并不能说该市19岁健康男大学生的平均身高有95%的概率落在区间 (171.3,173.1)里！即不能说这个区间有95%的概率覆盖总体均数。

这是由于平均身高作为总体均值，它是一个常数（客观存在），因此当区间估计完成以后，区间(171.3,173.1)要么覆盖总体均数，要么不覆盖。也就是说，概率为0或1，不会出现其它的概率值。

在一次具体的估计完成之前，一定样本量下的区间估计方法，假如能够重复很多次的话，将有较多的次数，例如95%的次数会成功，有5%的次数会失败，因为在我们完成具体的计算之前，实际上 $(\overline{X}-1.96\sigma _{\overline{X}},\overline{X}+ 1.96\sigma _{\overline{X}})$ 这个区间估计的上边界和下边界都还是随机变化的。

例用大量来自同一总体的独立样本对总体均数做估计时，关于95%的置信区间（CI），正确的说法是：A

A.大约有95%的样本的CI覆盖总体均值

B.各个样本估计的CI是相同的

C.对于同一个CI而言，有95%的可能性覆盖总体均数————>>要么覆盖（100%），要么不覆盖（0%）

（3） $\sigma$ 未知，且样本例数较小（）

由分布可知，此时某自由度的t曲线下约有 95%的值在 $\pm t_{0.05/2(\nu)}$ 之间，即：

$-t_{0.05/2(\nu)}<t<t_{0.05/2(\nu)}$

$-t_{0.05/2(\nu)}<\frac{\overline{X}-\mu }{S_{\overline{X}}}<t_{0.05/2(\nu)}$
$\overline{X}-t_{0.05/2(\nu)}S_{\overline{X}}<\mu <\overline{X}+t_{0.05/2(\nu)}S_{\overline{X}}$

95%的双侧置信区间： $(\overline{X}-t_{0.05/2(\nu)}S_{\overline{X}},\overline{X}+t_{0.05/2(\nu)}S_{\overline{X}})$

99%的双侧置信区间： $(\overline{X}-t_{0.01/2(\nu)}S_{\overline{X}},\overline{X}+t_{0.01/2(\nu)}S_{\overline{X}})$

通式： $\overline{X}-t_{\alpha /2(\nu)}S _{\overline{X}}$ （其中 $S_{\overline{X}}=S/\sqrt{n}$ ，表示样本标准差，表示样本含量， $S_{\overline{X}}$ 是基于样本标准差的标准误）（双侧）

例已知某地27例健康成年男性血红蛋白量的均数为 $\overline{X}=125g/L$ ，标准差 S=15g/L ,试问该地健康成年男性血红蛋白量的95%和99%置信区间。

95%CI： $\overline{X}\pm t_{0.05/2(\nu)}S_{\overline{X}}=\overline{X}\pm t_{0.05/2(26)}\frac{15}{\sqrt{27}}=125\pm 2.056\times 2.38 = (119.06,130.94)g/L$

99%CI： $\overline{X}\pm t_{0.01/2(\nu)}S_{\overline{X}}=\overline{X}\pm t_{0.01/2(26)}\frac{15}{\sqrt{27}}=125\pm 2.779\times 2.38 = (116.98,133.02)g/L$

2、总体概率 $\left ( \pi \right )$ $（\pi ）$ 的区间估计

总体概率的置信区间与样本含量、阳性频率(二项分布)的大小有关，可根据和的大小选择以下两种方法。

1、正态近似法

当样本含量足够大，且和 1-P 不太小（通常 $\large n\pi$ 和 $\large n(1-\pi )$ 均大于或等于5），则样本率的分布近似正态分布。

公式为： $(P-Z_{\alpha /2}S_{P},P+Z_{\alpha /2}S_{P})$

为样本率， $S_{P}$ 为基于样本率的标准误， $S _{p}=\sqrt{\frac{P(1-P)}{n-1}}\approx \sqrt{\frac{P(1-P)}{n }}$ 。

例：用某种仪器检查已确诊的乳腺癌患者94例，检出率为78.3%。估计该仪器乳腺癌总体检出率的95%置信区间。

分析：本例样本例数较大，且样本率不太小，可用正态近似法：

$\large \begin{align} P\pm Z_{\alpha /2}S_{P} &=P\pm Z_{\alpha /2}\sqrt{\frac{P(1-P)}{n }} \\ &=0.783\pm 1.96\times \sqrt{\frac{0.783(1-0.783)}{120}} \\ &=(0.709,0.857) \end{align}$